Acquisition d'informations lexicales à partir de corpus Cédric Messiant et Thierry Poibeau
نویسندگان
چکیده
Introduction L’existence de gros corpus (plusieurs millions de mots) et d’analyseurs syntaxiques performants fait qu’il est actuellement possible d’extraire automatiquement des connaissances à large couverture sur les mots et les constructions associées, directement à partir de corpus. Cette démarche permet d’obtenir des lexiques très complets à moindre coût, avec également des informations sur la fréquence et la productivité de différentes constructions, c’est-à-dire des données difficilement calculables à la main. Depuis une quinzaine d’années, plusieurs systèmes ont ainsi été conçus afin d’extraire automatiquement des informations sur la construction de mots essentiels du lexique, en général les verbes. On peut citer les travaux de (Brent (1993), Manning (1993), Briscoe and Carroll (1997), Korhonen (2002), Schulte im Walde (2002) parmi de nombreux autres. Nous avons nous-mêmes réalisé un système du même type pour le français, avec une première expérience qui s’appuie sur le corpus Le Monde (200 millions de mots, 1990–1999) et sur l’analyseur Syntex (Bourigault, 2007) pour inférer des connaissances sur la souscatégorisation de plus de 3000 verbes (Messiant et Poibeau, 2008 ; Messiant 2008). Le processus se décompose en 3 grandes étapes : 1) on rassemble d’abord l’ensemble des occurrences du verbe considéré ainsi que tous ses compléments, 2) on fait ensuite l’inventaire de toutes les constructions possibles pour le verbe considéré et enfin, 3) les constructions les plus rares sont éliminées, à partir de l’hypothèse qu’un nombre trop faible d’occurrences est le révélateur d’une erreur d’analyse (simple rencontre de surface). Tous les systèmes reposent sur cette architecture, même s’ils varient quant à la finesse de l’analyse considérée ou des stratégies de filtrage utilisées.
منابع مشابه
Lexical acquisition from corpora: the case of subcategorization frames in French
We present in this paper a method to automatically acquire a syntactic lexicon of subcategorization frames for French verbs directly from large corpora. The method is evaluated against existing lexical resources: we show that our system is capable of producing new frames that were not previously registered. Lastly, we show that it is possible to induce lexico-semantic classes « à la Levin » (19...
متن کاملAutomatic lexical acquisition from corpora: some limitations and tentative solutions
This paper deals with lexical acquisition. We take another look at some experiments we have recently carried out on the automatic acquisition of lexical resources from French corpora. We describe the architecture of our system for lexical acquisition. We formulate the hypothesis that some of the limitations of the current system are mainly due to a poor representation of the constraints used. F...
متن کاملEvaluating resource acquisition tools for Information Extraction
This paper evaluates two different approaches for the elaboration of semantic classes. The framework is an Information Extraction, which needs large amount of domain-dependent resources. An endogenous approach (corpus-based learning) is contrasted with a heterogeneous one (the use of a large semantic network). The two techniques are evaluated. Cet article vise à évaluer deux approches différent...
متن کاملAnnotation de textes par extraction d'informations lexico-syntaxiques et acquisition de schémas conceptuels de causalité
Résumé. Nous présentons la méthode INSYSE (Interface Syntaxe SEmantique) pour l’annotation de documents textuels. Notre objectif est de construire des annotations sémantiques de ces résumés pour interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies. Notre approche est semi-automatique, centrée sur (1) l’extraction d’informations lexico-syntaxique...
متن کاملMise en lumière de relations sémantiques pour la construction d'ontologie à partir de textes
Résumé : La construction d’ontologies à partir de textes consiste à décrire des concepts par leurs relations conceptuelles et éventuellement leurs instances, à partir des matériaux textuels (termes, relations lexicales). Cet article propose une méthode pour mettre en lumière, par l’analyse de corpus, des relations lexicales susceptibles de donner naissance à des relations conceptuelles. Cette m...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- CoRR
دوره abs/0911.5568 شماره
صفحات -
تاریخ انتشار 2009